DS4PS

Inferência, amostragem e estimação

Professor Davi Moreira

12-04-2022

Programa

  • Inferência
  • Amostragem
  • Estimação: pontual e intervalar

Motivação

Em um dos relatórios de pesquisa do Datafolha para as eleições de 2018, lemos a seguinte frase:

datafolha

Para entender o que quer dizer isso (e por que essa descrição está errada), precisamos falar de amostras, estimação e incerteza.

Inferência

A motivação mais comum para o uso de estatística nas ciências sociais é fazer inferências com base em amostras. A ideia é que, para saber uma característica qualquer da população, podemos observar alguns casos e seguir algumas regras de estimação.

A diferença mais importante entre a estatística inferencial e a estatística descritiva é que, na primeira, nosso objetivo é calcular e comunicar incerteza. Não fazemos inferência estatística para descobrir qual é o valor de um parâmetro; fazemos inferência para dar um palpite razoável sobre esse valor, com cálculo preciso da incerteza.

Vamos ver alguns conceitos.

Teoremas fundamentais

Você pode ser perguntar: se estamos fazendo apenas uma pesquisa, como sabemos que o valor dela representa um palpite razoável sobre o parâmetro?

  • Teorema Central do Limite: A distribuição amostral da média se aproxima de uma normal, independentemente da distribuição original da variável

Central Limit Theorem

Bunnies, Dragons and the ‘Normal’ World: Central Limit Theorem

Probabilidades na curva normal (regra empírica)

Curva Normal
  • Distribuição normal é simétrica
  • Pode ser inteiramente descrita com dois parâmetros: média e desvio-padrão
  1. 68% dos valores estão entre \(\pm\) 1 desvio padrão da média.
  2. 95% dos valores estão entre \(\pm\) 1,96 \(\approx\) 2 desvios padrões da média.
  3. 99.7% of values will lie within \(\pm\) 3 desvios padrões da média.

Distribuição de amostras

  • Em ciências sociais, quase nunca as distribuições são normais
  • Muitas vezes, não sabemos como se comporta a distribuição real
  • Podemos usar amostras para fazer inferências sobre os parâmetros da distribuição
  • As estatísticas dessas amostras, quando obtidas repetidamente, seguem uma distribuição repetida
  • Não estamos mais falando de distribuição de valores de uma variável, mas de estatísticas que emergem de diversas amostras
  • Exemplo: como se comporta a distribuição da intenção de votos em uma eleição?

Distribuição de amostras

  • Se fizermos diversas amostras de uma mesma população, podemos esperar variabilidade nos resultados
  • Esse erro é inerente ao fato de que estamos utilizando apenas uma parte da população: a amostra
  • Por isso institutos de pesquisas têm números diferentes para uma eleição. Mas essa variação segue um padrão conhecido
  • Na prática, não precisamos tirar diversas amostras: podemos calcular o erro padrão
Erro padrão é o erro que esperamos obter se fizermos diversas amostras de uma mesma população

Teoremas fundamentais

Você pode ser perguntar: se estamos fazendo apenas uma pesquisa, como sabemos que o valor dela representa um palpite razoável sobre o parâmetro?

  • Lei dos Grandes Números: A média amostral converge para o valor esperado da distribuição à medida em que o n cresce. Exemplo: jogar dados repetidas vezes

Simulação - Lei dos Grandes Números

Estimação

Estimação pontual e intervalar

Como fazer a ponte entre os dados que coletamos em nossa amostra e o valor verdadeiro do parâmetro populacional? Como comunicar a incerteza?

  • Estimativa pontual: o melhor palpite que podemos dar sobre o valor do parâmetro
  • Estimativa intervalar: um intervalo de valores dentro do qual acreditamos que o parâmetro se encontra

Amostragem

Vamos testar o que vimos até agora! Qual a porcentagem de bolas vermelhas dentro da bacia?

Bacia

Amostragem

Ao sacudir a bacia garantimos aleatoriedade na distribuição de bolinhas. Com uma pá adequada, podemos retirar uma amostra aleatória de 50 bolinhas.

Na Figura, vemos a presença de 17 bolas vermelhas, o equivalente a 34% da amostra. Podemos usar o resultado obtido na amostra aleatória como um palpite adequado (estimativa pontual) sobre a proporção de bolas vermelhas na bacia? Vamos usar simulação e aplicar o Teorema Central do Limite para nos ajudar com a resposta!

Pá

Amostragem

Vamos simular nossa bacia com bolinhas!

bowl

Amostragem

red_prop <- bowl %>% mutate(is_red = (color == "red")) %>% 
  summarize(num_red = sum(is_red),
            perc = num_red/n()) %>% select(perc)

Como fomos nós que criamos a bacia com bolinhas (a nossa população em análise), podemos computar o verdadeiro valor do parâmetro. Ou seja, nós sabemos exatamente qual a proporção de bolinhas vermelhas na bacia, 37.5%.

Esse é o valor que desejamos estimar com a máxima precisão e acurácia possíveis!

Amostragem

Vamos agora simular a nossa seleção aleatória de casos.

virtual_shovel <- bowl %>% 
  rep_sample_n(size = 50) 

red_prop_sample <- virtual_shovel %>%
  mutate(is_red = (color == "red")) %>%
  summarize(num_red = sum(is_red),
            perc = num_red/n()) %>% select(perc)

Em nossa amostra aleatória, nós podemos identificar que a proporção de bolinhas vermelhas é igual a 36%. É igual o verdadeiro valor do parâmetro?

Amostragem

n_rounds <- 30
sample_size <- 50

virtual_samples <- bowl %>% 
  rep_sample_n(size = sample_size, reps = n_rounds)

virtual_samples

Seguindo os pressupostos do Teorema Central do Limite, e se utilizarmos nossa pá virtual para coletar diferentes amostras (30 amostras) com 50 bolinhas cada? Qual será a distriuição da proporção de bolinhas vermelhas?

Amostragem

Seguindo os pressupostos do Teorema Central do Limite, e se utilizarmos nossa pá virtual para coletar diferentes amostras (30) com 50 bolinhas cada? Qual será a distriuição da proporção de bolinhas vermelhas?

Amostragem

O que acontece se aumentarmos o número de amostras para 1000?

Obtemos uma distribuição em forma de sino mais simétrica e suave. Uma distribuição bem aproximada de uma distribuição normal.

Amostragem

O que acontece se mantivermos o número de amostras em 1000, mas variarmos o tamamnho das amostras em 25, 50 e 100 bolinhas por experimento?

À medida que o tamanho da amostra aumenta, a variação das 1000 rodadas da proporção de vermelho diminui. Em outras palavras, conforme o tamanho da amostra aumenta, há menos diferenças devido à variação da amostragem e os centros das distribuições ficam mais próximos do mesmo valor.

Amostragem

Conceitos vistos até agora:

  • População é uma coleção de indivíduos/observações em que estamos interessados.
  • Parâmetro da população é uma quantidade/valor numérico desconhecido, mas que desejamos saber.
  • Censo é a contagem de todos os N indivíduos ou observações na população, a fim de calcular o valor exato do parâmetro da população.
  • Amostragem é o ato de coletar uma parcela da população quando não temos os meios para realizar um censo.
  • Estimativa pontual (estatística da amostra) é uma estatística calculada a partir de uma amostra que estima um parâmetro desconhecido da população.

Amostragem

Conceitos vistos até agora (cont.):

  • Amostra representativa: uma amostra é considerada representativa se ela for semelhante à população.
  • Generalização: uma amostra é generalizável se quaisquer resultados baseados na amostra puderem ser generalizados para a população.
  • Amostragem enviesada ocorre se certos indivíduos ou observações em uma população têm uma chance maior de serem incluídos em uma amostra do que outros.
  • Amostragem aleatória: um procedimento de amostragem é aleatório se a seleção de representantes da população apra compor a amostra for imparcial.

Amostragem

Até aqui:

  • Se a seleção de uma amostra de tamanho \(n\) for feita aleatoriamente, então
  • a amostra é imparcial e representativa da população de tamanho \(N\). Logo,
  • qualquer resultado com base na amostra pode ser generalizado para a população e
  • a estimativa pontual é um “bom palpite” do parâmetro desconhecido da população. Isto significa que
  • em vez de realizar um censo, podemos inferir sobre a população por meio de amostragem.

Amostragem

Em suma, a amostragem aleatória garante que nossas estimativas pontuais sejam acuradas. E, ao mesmo tempo, ter um tamanho de amostra grande garante que nossas estimativas pontuais sejam precisas.

Precisao

Bootstraping e Intervalos de Confiança

Bootstraping e Intervalos de Confiança

Vimos como a teoria opera e podemos confiar na possibilidade de fazer estimativas pontuais a partir de uma amostra aleatória.

No entanto, é viável realizar diferentes amostras de uma população do ponto de vista prático? Não! Na prática, temos apenas uma amostra para produzir inferências sobre a população.

Diante desse fato, como produzir inferências que não dependam da sorte de obter a amostra adequada?

Faremos isso usando uma técnica conhecida como reamostragem de bootstrap (Bootstraping) com reposição e a obtenção de intervalos de confiança.

Bootstraping

Penny

Tente imaginar todas as moedas de um centavo sendo usados nos Estados Unidos. Agora, digamos que estamos interessados no ano médio de produção das moedas de um centavo em circulação. Como é impossível adquirir todas as moedas para calcular o ano médio de produção, podemos acessar uma amostra aleatória de 50 delas.

Bootstraping

Com base nesses 50 centavos de amostra, o que podemos dizer sobre todos os centavos em circulação nos EUA? Vamos estudar algumas propriedades de nossa amostra realizando uma análise exploratória de dados. Vamos primeiro visualizar a distribuição do ano desses 50 centavos.

Bootstraping

Se assumirmos que temos uma amostra representativa de todos os centavos dos EUA, uma boa estimativa pontual do ano médio de cunhagem de todos os centavos dos EUA seria 1995.44. Em outras palavras, por volta de 1995.

Contudo, vimos que nossa estimativa pontual está sujeita a variações de amostragem. Por exemplo, nesta amostra específica, observamos três centavos com o ano de 1999. Se amostrássemos outros 50 centavos, observaríamos exatamente três centavos com o ano de 1999 novamente? Provavelmente não. Logo, não sabemos se estamos diante de uma boa amostra e, para avançar, precisamos estudar nossa variação amostral através da única amostra que temos.

Faremos isso usando uma técnica conhecida como reamostragem de bootstrap com reposição!

Bootstraping

Exemplo de uma reamostragem:

  1. Coloque todas as 50 moedas da amostra numa urna;
  2. Agite a urna para embaralhar;
  3. Sorteie uma moeda e anote seu ano;
  4. Devolva a moeda sorteada para a urna;
  5. Agite a urna para embaralhar as moedas novamente;
  6. Faça um novo sorteio/registro e repita os passos 1 a 5 até obter 50 registros.

Bootstraping

Bootstraping

O que acabamos de realizar foi uma reamostragem da amostra original de 50 centavos. Não estamos amostrando 50 centavos da população de todos os centavos dos EUA. Em vez disso, estamos imitando essa tarefa reamostrando 50 centavos de nossa amostra original de 50 centavos.

Utilizando simulação computacional, podemos, portanto, realizar este procedimento quantas vezes desejarmos! Ao final, temos a distribuição das médias amostrais!

Bootstraping

Acabamos de construir nossa primeira distribuição bootstrap! A média dessas 1.000 médias é 1995.4112, que é bastante próxima da média de nossa amostra original de 50 centavos de 1995.44. Usando essa distribuição bootstrap, podemos estudar o efeito da variação da amostragem em nossas estimativas. Em particular,o “erro” típico de nossas estimativas, conhecido como erro padrão.

Para refinar nossa análise, ao invés de adotar uma simples estimativa pontual sobre o parâmetro da população (ano médio das moedas de um centavo circulando nos EUA), vamos aprender a construir intervalos de confiança.

Intervalos de Confiança

CI

Ao contrário de uma estimativa pontual que estima o parâmetro desconhecido da população com um único valor, um intervalo de confiança (IC) permite inferir uma gama de valores plausíveis sobre o parâmetro populacional. Veremos dois métodos para construir tais intervalos, ambos construídos a partir da distribuição bootstrap: o método do percentil e o método do erro padrão.

Intervalos de Confiança

Ambos métodos exigem que se especifique um nível de confiança. Em outras palavras, a confiança com a qual assume-se que o intervalo construído possuirá o valor verdadeiro do parâmetro populacional.

Tudo mantido constante, níveis de confiança mais altos correspondem a intervalos de confiança mais amplos e níveis de confiança mais baixos correspondem a intervalos de confiança mais estreitos. Por padrão, vamos adotar o nível de confiança de 95%.

Intervalos de Confiança: método do percentil

Um método para construir um intervalo de confiança é usar os 95% intermediários dos valores da distribuição de bootstrap. Podemos fazer isso calculando os percentis 2,5 e 97,5. Continuando com nosso exemplo sobre as moedas de um centavo, temos como limite inferior do intervalo 1991.279 e como limite superior do intervalo 1999.541.

Intervalos de Confiança: método do erro padrão

Usando nossa regra de ouro de 95% sobre distribuições normais,

\[IC = \overline{x} \pm 1.96 \cdot SE\]

temos como limite inferior o valor de 1991.2367661 e como limite superior o valor de 1999.5856339.

Intervalos de Confiança: pacote infer

ci_infer

Intervalos de Confiança: pacote infer

viz_infer

Intervalos de Confiança: pacote infer

Intervalos de Confiança: método do percentil com infer

Intervalos de Confiança: método do erro padrão com infer

Intervalos de Confiança: interpretação

A eficácia de um intervalo de confiança é avaliada pelo fato de conter ou não o valor verdadeiro do parâmetro da população. Logo, o intervalo de confiança construído a partir de 95% de nível de confiança sempre captura o valor do parâmetro populacional? A resposta é não!

  • Interpretação precisa: Se repetirmos nosso procedimento de amostragem um grande número de vezes, esperamos que cerca de 95% dos intervalos de confiança resultantes capturem o valor do parâmetro da população.

Nosso procedimento de construção do intervalo de confiança é 95% confiável. Ou seja, podemos esperar que nossos intervalos de confiança incluam o parâmetro real da população em cerca de 95% do tempo.

Intervalos de Confiança: interpretação

  • Interpretação incorreta: Há 95% de probabilidade de que o intervalo de confiança contenha o parâmetro.

Perceba que o intervalo de confiança contém ou não contém o parâmetro. Em outras palavras, a probabilidade é 1 ou 0.

Portanto, se o nível de confiança de 95% se relaciona apenas à confiabilidade do procedimento de construção do intervalo de confiança e não a um determinado intervalo de confiança em si, que percepção pode ser derivada de um determinado intervalo de confiança?

Intervalos de Confiança: interpretação

Em termos gerais, podemos pensar nos intervalos calculados (método do percentil ou do erro padrão) como nossa “melhor estimativa”, “melhor palpite”, de uma faixa plausível de valores para o parâmetro populacional.

  • Interpretação resumida: estamos 95% “confiantes” de que um intervalo de confiança de 95% captura o valor do parâmetro da população.

Trade-off entre nível de confiança, tamanho da amostra e intervalo de confiança

Trade Off

Uma simulação ilustrativa
  1. Níveis de confiança mais altos tendem a produzir intervalos de confiança mais amplos.
  2. Tamanhos de amostra maiores tendem a produzir intervalos de confiança mais estreitos.

Aplicação: World Values Survey

O World Values Survey é um projeto que faz pesquisas de opinião representativas em diversos países, entre eles o Brasil.

As perguntas são padronizadas, de modo a facilitar a comparação. São avaliadas as percepções das pessoas sobre assuntos como instituições políticas, capital social, religião e valores pós-materialistas.

Vamos criar um objeto wvs com os resultados.

Confiança nas instituições

Usando os dados do WVS, podemos estimar a confiança dos brasileiros em suas instituiições políticas. Vamos utilizar o seguinte bloco de perguntas:

wvs

Confiança nas instituições

Qual é o percentual de pessoas que confia em partidos políticos no Brasil?

Resposta: Pela pesquisa, podemos estimar que 13.8% dos brasileiros confiavam nos partidos políticos em 2018. Se repetíssemos essa pesquisa infinitas vezes, 95% das médias estariam entre 12.1% e 15.4%.

Exercício

Identifique o país com maior confiança na ONU, e construa o intervalo de 95% de confiança em torno da média.

Exercício: resposta

Comunicando incerteza

Lembre-se de que não estamos olhando para toda a população. Tão importante quanto identificar qual é o “melhor palpite” sobre o valor do parâmetro é comunicar seu grau de incerteza em relação à estimativa.

  • Intervalo de confiança: estimativa intervalar, calculada pelo pesquisador durante a análise
  • Nível de confiança: definido pelo pesquisador antes da análise dos dados
  • Margem de erro: erro-padrão multiplicado pelo número de desvios-padrões que produzem o nível de confiança definido previamente pelo pesquisador
intervalo de confiança = estimativa pontual \(\pm\) m. de erro

Em resumo

Amostragem e inferência

  • O primeiro passo é deixar de pensar em distribuição dos dados e passar a pensar em distribuiçao amostral
  • Distribuição amostral é uma distribuição de estatísticas, em vez das distribuições de observações com as quais estamos habituados
  • O Teorema Central do Limite mostra convergência em distribuição: qualquer que seja a distribuição original das observações, suas médias convergem para a distribuição Normal
  • A Lei dos Grandes Números mostra convergência pontual: com n grande o suficiente, as estimativas convergem para o valor verdadeiro na população

Em inferência, é muito importante comunicar incerteza!

Inferência é um palpite bem informado sobre o valor do parâmetro, condicionado a algumas suposições. Não basta falar qual é o seu palpite, é fundamental comunicar com clareza quão certo você está dele!

Em inferência, é muito importante comunicar incerteza!

  • Estimativa pontual é o melhor palpite que podemos dar sobre o valor do parâmetro. Sua representação mais comum é a média
  • Estimativa intervalar é um conjunto de valores que consideramos palpites razoáveis. Quanto mais largo o intervalo, maior nossa incerteza. Geralmente é representado pelo intervalo de confiança ou pela margem de erro
  • Nível de confiança é um valor definido a priori, que traduz qual é o grau de incerteza que estamos dispostos a aceitar em nosso palpite

Não confunda!

  • Distribuição da população vs distribuição dos dados amostrais vs distribuição amostral vs distribuição bootstrapping
  • Desvio-padrão vs erro padrão
  • Número de amostras vs número de observações

A leitura no nosso primeiro exemplo faz sentido?

Datafolha em 2018:

Datafolha 2018

Datafolha em 2014:

Datafolha 2014

Material adicional

Tarefa da aula

As instruções da tarefa estão no arquivo NN-ds4ps-inference-assignment.rmd da pasta assignment deste projeto.